بیشتر روش های موجود برای تخمین ژست دست سه بعدی از یک نقشۀ عمقی تک از یک چارچوب مشترک استفاده می کنند که با گرفتن یک نقشۀ عمق دوبعدی، مختصات سه بعدی نقاط کلیدی را مستقیماً از طریق شبکه های عصبی کانولوشنی دوبعدی پیش بینی می کنند. اولین ضعف این رویکرد وجود انحنای پرسپکتیو در نقشۀ عمق دوبعدی است. در حالی که نقشۀ عمق به طورذاتی داده های سه بعدی است، روش های قبلی بسیاری از نقشه های عمق را به عنوان تصاویر دوبعدی در نظر می گیرند که می تواند شکل واقعی شیء را از طریق پراجکشن از فضای سه بعدی به دوبعدی تحریف کند. این مجبور به انجام تخمین مقاوم در برابر انحنای چشم انداز می شود. دومین ضعف رویکرد سنتی این است که رگرسیون مستقیم مختصات سه بعدی از تصویر دوبعدی، یک نقشه برداری بسیار غیرخطی است که موجب دشواری در روند یادگیری می شود. برای غلبه بر این ضعف ها، ابتدا مسئلۀ تخمین ژست دست انسان سه بعدی از یک نقشۀ عمقی تک را به یک پیش بینی وکسل به وکسل تبدیل می کنیم که از یک شبکۀ وکسلی سه بعدی استفاده می کند و برای هر نقطۀ کلیدی احتمال وکسل مربوطه را تخمین می زند. ما مدل خود را به عنوان یک شبکۀ عصبی کانولوشنی سه بعدی طراحی می کنیم که تخمین های دقیقی را در حال اجرا به صورت زمان واقعی ارائه می دهد.